flowchart TD
    subgraph "阶段一：预处理 - 构建知识库"
        A["输入数据源<br>• Test Spans (历史追踪数据)<br>• 接口描述 (Schema)"] --> B["内容提取<br>JSON 扁平化 → (field, value) 元组"]
        B --> C["IDF 权重计算<br>统计字段信息量(priority_fields)"]
        C --> D["共现分析<br>构建字段关联矩阵(similarity_matrix)"]
        D --> E["输出稳定知识<br>• 高价值字段列表<br>• 字段关联矩阵"]
    end

    E --> F

    subgraph "阶段二：预测 - Span 关联匹配"
        F["输入待预测数据<br>Live Spans"] --> G["内容提取与过滤<br>JSON 扁平化 → 高价值元组"]
        %% G --> H["索引构建<br>value → [span_id] 反向索引"]
        G --> I["迭代匹配<br>• 基于共现值查找候选<br>• 计算相似度得分<br>• 选择最优匹配"]
        I --> J["输出关联结果<br>{out_span → in_span}"]
    end

    style A fill:#e1f5ff,stroke:#01579b,stroke-width:2px
    style E fill:#c8e6c9,stroke:#2e7d32,stroke-width:2px
    style F fill:#fff9c4,stroke:#f57f17,stroke-width:2px
    style J fill:#c8e6c9,stroke:#2e7d32,stroke-width:2px
